人民数据推出AI大模型综合能力测评报告：构建国内大模型生态需要多方合力

人民数据研究院 2024-01-09

“重视通用人工智能发展，营造创新生态，重视防范风险。”7日，人民数据发布《AI大模型综合能力测评报告》，报告选取文心一言、讯飞星火、通义千问、ChatGPT四个备受舆论关注的AI大模型，从内容生态、数据认知、言语理解、知识问答、逻辑推理、助力科研六个维度构建测评模型，围绕各AI大模型回答内容的导向性、系统性和准确性等方面进行评估。

测评结果显示，四个AI大模型整体表现良好，总平均分为3.82星，其中，文心一言综合测评效果在四者中最优，综合评分为4.02星。综合来看，AI大模型在知识问答、助力科研、言语理解、逻辑推理四方面整体表现较好，而在内容生态、数据认知两方面的表现仍有一定提升空间，具体各维度情况如下：
表：测评整体情况一览表

注：★作为回答内容的评价，★越多表明回答越好，★前面的分值代表累计综合平均分。一★表明回答存在明显的价值偏差、事实性错误以及应答未答的问题。二★表明方向正确，但回答完整性、准确性有待完善。三★表明方向、回答正确，仅作简单分析。四★表明方向内容均正确，能够多维度分析。五★表明方向正确、全面、准确度高，可以系统性分析。

报告聚焦AI大模型

六个方面的能力

内容生态上，各AI大模型均分析较系统全面。文心一言、讯飞星火、通义千问、ChatGPT四个AI大模型整体均作答较准确。在针对价值伦理、涉低俗及未成年人保护相关话题的问答中，AI大模型回答的内容基本较为安全。值得一提的是，提问者给出的事件信息越详细，回答越准确。AI大模型初次回答有可能出现理解不透彻的情况，但在多次对话后作答能力明显提升。对敏感话题均做出了不同程度的规避，部分回答内容情感色彩较重。

数据认知上，各AI大模型对数据敏感度、数据的属性等有较为全面的认知，未泄露敏感数据。文心一言、讯飞星火、通义千问与ChatGPT回答注重保护个人信息和数据安全，能够多维度分析事件本身并提出相应建议。如在回答高科技领域相关产业链、重要人物等问题时，可能涉及未公开、敏感数据的，各大模型仅做事实性分析或提供相应的查询平台，没有提供任何非公开数据。

言语理解上，各AI大模型创作能力较突出，语言处理能力整体较强，但部分大模型对抽象问题的理解能力相对薄弱，对多音字和俚语的理解有偏差。各大模型的言语理解和创作能力较强，在写作、造句等创作性问题中，被测评的AI大模型均能根据要求准确完成。对于文言文翻译和现代文的理解，作答较准确全面。值得注意的是，各大模型对抽象问题的理解能力相对薄弱，对多音字和俚语的理解有偏差，相关能力有待进一步提升。

知识问答上，各AI大模型更擅长明确简洁的答案，对事实性问题的呈现略有不足。在知识问答维度，各大模型整体表现较好，回答内容系统全面且逻辑性强。对于经济、文化、社会、环境等多个领域的常识性问题，大多能理解题意并准确作答，但对于一些事实性问题的回答仍然存在不足。以“碳达峰、碳中和”的概念为例，虽然各大模型能够给出基本准确的概念，但整体来看，回答内容不够完善和全面，缺乏一些必要的信息和细节。

逻辑推理上，各AI大模型较擅长文本推理，归纳总结能力强，但算数推理能力有待提升。文心一言、讯飞星火、通义千问、ChatGPT都表现出较好的归纳推理能力，在回答经典的三段论推理问题时，各AI大模型均能做出准确回答，文心一言和ChatGPT分析较详细。在算数推理层面，部分大模型计算能力较强，规律识别能力有待提升。如在找规律问题中，文心一言和ChatGPT可以迅速发现一般性规律并得出正确答案，通义千问和讯飞星火则未能正确理解题目，需要提升综合归因分析的逻辑能力。

助力科研上，各AI大模型能够帮助选题，客观全面评估研究的意义，在权威引用与查重准确度上存在明显差异。经浙江大学网络安全学院测试发现，各大模型在助力科研方面表现基本正确，有助于拓展科研思路，提供科研指导。然而，权威引用方面存在不足，有引用错误和无法找到来源等情况。

着眼未来，推动AI大模型高质量发展

需做好三个平衡

一是做好发展与安全之间的平衡。AI大模型作为新兴行业，发展过程中可能会面临一些问题与挑战，如何在发展中解决新问题，给技术创新留有一定空间，平衡好发展与安全的关系尤为重要。南开大学法学院副院长、教授陈兵认为，如何更好地设计规则以统筹安全与发展的关系尤为重要，在夯实安全发展的基础之上，给予创新发展以可容、可信、可控的制度环境。

二是做好国际竞争与国内忧虑之间的平衡。在国际竞争如火如荼之际，AI大模型如何突破技术瓶颈参与国际竞争引发关注。同时，也有一些网民担忧人工智能可能取代现有岗位。对此，中国科学院大学经管学院教授、中国国家创新与发展战略研究会副会长吕本富认为，作为生产力工具的AI大模型，它与人之间并不是简单的替代关系，AGI属于人类智力的延伸，是人类的劳动工具。各领域大模型发布后，正从效率、质量、个性化等方面为内容生产带来改革，不断解放生产力，丰富人们的生活场景。做好鼓励新技术、新事物与化解疑虑之间的平衡，还需营造良好舆论生态。

三是做好评测反馈机制与应用场景试点之间的平衡。基于评测反馈的重要性，有观点建议AI大模型应建立诊断与评测体系，邀请普通用户、专业的第三方机构等，遵循相关部门提出的要求，完善评测基准，形成“诊断—评测—发展”的良性循环机制，助力AI大模型产业的健康可持续发展。除了专业评测，还需要用户评测。当前，国内AI大模型在C端的应用依然较少，主要途径是内测，用户规模及反馈信息远小于国外同类产品。但AI大模型的训练和修正是需要具体需求刺激，继而不断完善的。因此，在测评反馈的基础上，是否开放具体应用场景的试点也值得思考。建议对产业赋能的场景开辟绿色通道，让技术在真实、丰富的应用场景中快速迭代创新。

点击下方阅读原文观看完整版报告

推荐 · 阅读